怼系列·E04S01|大佬们的大模型世界观分组画像以及GPT-4V的内部表征世界探究
“
𝕀²·ℙarad𝕚g𝕞智能平方范式研究任重道远。
从理解SOTA(State of the Art)的大语言模型(LLM)背后的灵魂人物访谈、到读懂一系列机器学习工程论文,再到看𝕏(推特)上AI大佬互怼,仔细琢磨那些争论中的名词,绝对是提高对AI范式认知的有效方式。引起对怼现象的关注,应该是始自Yann教授一直怼自回归大语言模型AR-LLM。这次借GPT-4V的内部表征世界探究顺便怼的背后AI大佬们的大模型世界观分组画像图|汤源/DALL·E 3
题图
正文
在A𝕀²·ℙarad𝕚g𝕞最初的生成模型分类中,LLM GPT具有某种超模态的地位,相当于人类的基于语言认知思考空间的ANN大模型实现;而类似Stable Diffusion与MidJourney这类则是想象空间的大模型实现。随着GPT-4V与DALL·E 3的无缝集成统一通过ChatGPT的App或API输出,以及叠加语音交互,大模型进入了多模态交互,AI与HI的交互影响也变得越来越具体。
近日有𝕏友(@marktenenholtz)为AI狂潮中的众生相做了个画像:
The core of so many arguments about LLMs:
Group 1 is builders who have pragmatic expectations of LLMs, and use them accordingly. They're quite happy with them.
Group 2 is shitfluencers who are jumping on the hype wave and ruining it for everyone.
Group 3 hates group 2 and loves showing the deficiencies of LLMs to get back at them. Some are realists, others just have very high expectations of AI.
Group 1 doesn't understand group 3, because they just ignore group 2 and make use of it. They feel like group 3 is being unfair to LLMs and cherry-picking.
Now, group 3 starts arguing with group 1. "LLMs are not reliable! They can't always perform complex reasoning!" they shout.
"We agree!" group 1 responds. "But they're still useful!"
And that argument continues, between two groups that agree more than they realize.
Meanwhile, group 2 frolics about, ignoring this entire debate, continuing to post "10 ways to make $10k/mo with ChatGPT"
And the cycle continues.
▩译文关于LLM的许多争论的核心:
第 1 组是对 LLM 抱有务实期望并据此使用 LLM 的构建者。他们非常满意。
第 2 组则是那些一拥而上、大肆炒作的 "垃圾影响者",他们毁了所有人的生活。
第 3 组憎恨第 2 组,喜欢展示LLM的不足来报复他们。有些人是现实主义者,有些人则对人工智能抱有很高的期望。
第 1 组不理解第 3 组,因为他们只是无视第 2 组并加以利用。他们觉得第 3 组对LLM不公平,是在偷梁换柱。
现在,第 3 组开始与第 1 组争论:"LLM 不可靠!他们喊道:"LLM不可靠!他们不能总是进行复杂的推理!"。
"我们同意!"第 1 组回应道。"但它们仍然有用!"
这样的争论在两组人之间继续着,他们的共识比他们自己意识到的要多得多。
与此同时,第 2 组嬉笑怒骂,无视整个争论,继续发布 "通过 ChatGPT 每月赚取 1 万美元的 10 种方法"。
如此循环往复。
△
访谈系列·E03S01|GPT-4成功背后灵魂人物Ilya访谈解读——从预训练模型到可靠可用AGI
两者最大的区别是zip缺乏压缩与解压缩过程中的高维空间计算,所以zip的能力很单一,但LLM相反因此具备了强大的能力泛化,以及涌现?
💡 语言建模就是压缩·Language Modeling Is Compression
https://arxiv.org/abs/2309.10668 [Submitted on 19 Sep 2023]▩论文摘要译文预测模型可以转化为无损压缩器,反之亦然,这一点早已得到证实。
顺便提一下,近年来,机器学习界一直专注于训练越来越大、越来越强大的自监督(语言)模型。由于这些大型语言模型表现出令人印象深刻的预测能力,它们完全有能力成为强大的压缩器。
在这项工作中,我们主张从压缩的角度来看待预测问题,并评估大型(基础)模型的压缩能力。
我们的研究表明,大型语言模型是强大的通用预测器,而且压缩观点为缩放规律、标记化和上下文学习提供了新的见解。例如,主要针对文本进行训练的 Chinchilla 70B 将 ImageNet 片段压缩到原始大小的 43.4%,将 LibriSpeech 样本压缩到原始大小的 16.4%,分别击败了 PNG(58.5%)或 FLAC(30.3%)等特定领域的压缩器。
最后,我们展示了预测与压缩的等效性,这使我们可以使用任何压缩器(如 gzip)来构建条件生成模型。▩论文摘要原文It has long been established that predictive models can be transformed into lossless compressors and vice versa.
Incidentally, in recent years, the machine learning community has focused on training increasingly large and powerful self-supervised (language) models. Since these large language models exhibit impressive predictive capabilities, they are well-positioned to be strong compressors.
In this work, we advocate for viewing the prediction problem through the lens of compression and evaluate the compression capabilities of large (foundation) models.
We show that large language models are powerful general-purpose predictors and that the compression viewpoint provides novel insights into scaling laws, tokenization, and in-context learning. For example, Chinchilla 70B, while trained primarily on text, compresses ImageNet patches to 43.4% and LibriSpeech samples to 16.4% of their raw size, beating domain-specific compressors like PNG (58.5%) or FLAC (30.3%), respectively.
Finally, we show that the prediction-compression equivalence allows us to use any compressor (like gzip) to build a conditional generative model.△
“2006年Hinton发表在Science上的文章提到
当我们学习时,大多数时候我们学习的是如何将其转化为可交流的语言,而不是真正的概念。
该实验出自约翰·罗杰斯·瑟尔的论文《心灵、大脑和程序》(Minds, Brains, and Programs)中,发表于1980年的《行为与脑科学》。[1]
实验概要
中文房间的实验过程可表述如下:
一个对中文一窍不通,只说英语的人关在一间只有一个开口的封闭房间中。房间里有一本用英文写成的手册,指示该如何处理收到的中文讯息及如何以中文相应地回复。房外的人不断向房间内递进用中文写成的问题。房内的人便按照手册的说明,查找合适的指示,将相应的中文字符组合成对问题的解答,并将答案递出房间。
约翰·瑟尔认为,尽管房里的人可以以假乱真,让房外的人以为他说中文,但事实上他根本不懂中文。在上述过程中,房外人的角色相当于程序员,房中人相当于计算机,而手册则相当于计算机程序:每当房外人给出一个输入,房内的人便依照手册给出一个答复(输出)。而正如房中人不可能透过手册理解中文一样,计算机也不可能透过程序来获得理解力。既然计算机没有理解能力,所谓“计算机于是便有智能”便更无从谈起了。
反面观点
对此,有相反观点被提出[谁?],其内容大致如下:
反面观点的论据
所有人都认为人是拥有智能的,而人的智能决策来自于脑细胞的电信号转换,每一个脑细胞并不理解单词的意义,只是简单的缓冲、传递或抑制一个电信号,脑细胞创造了语法规则,创造了决策策略(相当于规则书与不懂中文的人),但是它们并不懂每个单词的意义。[来源请求]而人类却显示出与人沟通的能力。如果按照瑟尔的观点,那么人类也不存在认知能力,但这与事实是不符的。所以依然可以认为若某段计算机程序,能够完成图灵测试,则说明该段计算机程序具有认知能力。
对反面观点的批评
然而,此一观点也被提出存在两项根源性谬误,以至甚至被认为错误理解“中文房间”概念。其一为此论过于倚赖“智能决策来自于脑细胞的电信号转换”此一前题,并将人类作出智能决策时,涉及脑细胞电信号转换的现象,错误地演绎为“智能决策‘唯独’由脑细胞的电信号转换‘所产生’”。此演绎不但从未被证明过,也无足够证据支持。其次,此说只能推导出“单独一个脑细胞的缓冲、传递或抑制一个电信号,不能使其理解单词的意义”而已,至于脑细胞(集体)如何创造语法规则、决策策略,是否单纯倚靠个别脑细胞的缓冲、传递或抑制电信号等等,并未作出任何合理推论;同时也忽略了“单独一个脑细胞”与一个拥有智能的人类之间,后者包涵前者、前者与众多他者组成后者等复杂关系,便直接将“单独一个脑细胞不理解单词的意义而人类拥有智能”此一现实,用作否定“机器不能透过程序获得理解能力”与及“智能直接关系于理解能力”的根据,其逻辑难以明白,推演也过于草率。
💡 语言模型表征的空间和时间·Language Models Represent Space and Time
https://arxiv.org/abs/2310.02207 [Submitted on 3 Oct 2023]▩原文大型语言模型(LLMs)的能力引发了一场争论:这些系统究竟只是学习了大量浅显的统计数据,还是学习了数据生成过程的连贯模型--世界模型。
我们通过分析 Llama-2 模型系列中三个空间数据集(世界、美国、纽约市)和三个时间数据集(历史人物、艺术作品、新闻标题)的学习表征,找到了后者的证据。
我们发现,LLMs 可以学习跨尺度的空间和时间线性表征。这些表征对不同实体类型(如城市和地标)的提示变化和统一具有鲁棒性。此外,我们还识别出能可靠编码空间和时间坐标的单个 "空间神经元 "和 "时间神经元"。
我们的分析表明,现代LLMs获得了关于空间和时间等基本维度的结构化知识,这支持了一种观点,即它们学习的不仅仅是肤浅的统计数据,而是字面意义上的世界模型。
▩译文The capabilities of large language models (LLMs) have sparked debate over whether such systems just learn an enormous collection of superficial statistics or a coherent model of the data generating process -- a world model.
We find evidence for the latter by analyzing the learned representations of three spatial datasets (world, US, NYC places) and three temporal datasets (historical figures, artworks, news headlines) in the Llama-2 family of models.
We discover that LLMs learn linear representations of space and time across multiple scales. These representations are robust to prompting variations and unified across different entity types (e.g. cities and landmarks). In addition, we identify individual ‘space neurons‘ and ‘time neurons‘ that reliably encode spatial and temporal coordinates.
Our analysis demonstrates that modern LLMs acquire structured knowledge about fundamental dimensions such as space and time, supporting the view that they learn not merely superficial statistics, but literal world models.
这一论证的狭义结论是,对数字计算机进行编程可以使其看起来理解语言,但无法产生真正的理解。因此,"图灵测试 "是不充分的。塞尔认为,这个思想实验强调了这样一个事实,即计算机只是使用句法规则来处理符号字符串,但并不理解意义或语义。
△
参考
说明:本文在公众号里标注为“原创”仅为防止未经许可的转发,本文引用内容的版权属于原作者和原媒体。
-相关𝕏文
-BingCreate
附录:𝕀²·ℙarad𝕚g𝕞智能平方范式研究
H𝕀:Humanity Intelligence [Sys1&2@BNN]
A𝕀:Artifical Intelligence [LLM@ANN]
𝕀²:H𝕀 𝕩 A𝕀 [bio- | silico-]
ℙarad𝕚g𝕞:认知范式或BNN认知大模型
A𝕀与H𝕀当前在玩一个语言游戏。A𝕀最大的问题是已知一点白
往期推荐
AI平方范式智库·认知构建路径:A𝕀²ℙarad𝕚g𝕞 V4商业新范式解读
AI平方范式智库·数学系列E03S01 | 神经网络背后的数学
AI平方范式智库·访谈系列E03S02|从语言游戏到LLM智能体
AI平方范式智库·访谈系列E03S01 | 从预训练模型到可靠可用AGI
扫码加群,
链接智库!
AI平方范式智库